The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
translated by 谷歌翻译
Out-Of-Distribution (OOD) detection has received broad attention over the years, aiming to ensure the reliability and safety of deep neural networks (DNNs) in real-world scenarios by rejecting incorrect predictions. However, we notice a discrepancy between the conventional evaluation vs. the essential purpose of OOD detection. On the one hand, the conventional evaluation exclusively considers risks caused by label-space distribution shifts while ignoring the risks from input-space distribution shifts. On the other hand, the conventional evaluation reward detection methods for not rejecting the misclassified image in the validation dataset. However, the misclassified image can also cause risks and should be rejected. We appeal to rethink OOD detection from a human-centric perspective, that a proper detection method should reject the case that the deep model's prediction mismatches the human expectations and adopt the case that the deep model's prediction meets the human expectations. We propose a human-centric evaluation and conduct extensive experiments on 45 classifiers and 8 test datasets. We find that the simple baseline OOD detection method can achieve comparable and even better performance than the recently proposed methods, which means that the development in OOD detection in the past years may be overestimated. Additionally, our experiments demonstrate that model selection is non-trivial for OOD detection and should be considered as an integral of the proposed method, which differs from the claim in existing works that proposed methods are universal across different models.
translated by 谷歌翻译
对抗性训练(AT)通常被认为是防御对抗性例子的最有效的方法之一,可能会在很大程度上损害标准绩效,因此对工业规模的生产和应用的有用性有限。令人惊讶的是,这种现象在自然语言处理(NLP)任务中完全相反,在该任务中甚至可以从中受益。我们注意到NLP任务中AT的优点可能来自离散和符号输入空间。为了借用NLP风格的优势,我们提出了离散的对抗训练(DAT)。 DAT利用VQGAN改革图像数据以离散类似文本的输入,即视觉单词。然后,它可以最大程度地减少这种离散图像的最大风险,并具有符号对抗扰动。我们从分布的角度进一步提供了解释,以证明DAT的有效性。作为增强视觉表示的插件技术,DAT可以在多个任务上取得重大改进,包括图像分类,对象检测和自我监督学习。尤其是,该模型通过胶带自动编码(MAE)预先训练并由我们的DAT进行微调,而没有额外的数据可以在Imagenet-C上获得31.40 MCE,并且在Stylized-Imagenet上进行了32.77%的TOP-1准确性,建立了新的状态 - 艺术。该代码将在https://github.com/alibaba/easyrobust上找到。
translated by 谷歌翻译
由于深度神经网络的开发,尤其是对于最近开发的无监督的JND代模型,对公正的显着差异(JND)建模做出了重大改进。但是,他们有一个主要的缺点,即在现实世界信号域而不是在人脑中的感知结构域中评估了生成的JND。当在这两个域中评估JND时,存在明显的差异,因为在现实世界中的视觉信号在通过人类视觉系统(HVS)传递到大脑之前已编码。因此,我们提出了一个受HVS启发的信号降解网络进行JND估计。为了实现这一目标,我们仔细分析了JND主观观察中的HVS感知过程,以获得相关的见解,然后设计受HVS启发的信号降解(HVS-SD)网络,以表示HVS中的信号降解。一方面,知识渊博的HVS-SD使我们能够评估感知域中的JND。另一方面,它提供了更准确的先验信息,以更好地指导JND生成。此外,考虑到合理的JND不应导致视觉注意力转移的要求,提出了视觉注意力丧失以控制JND的生成。实验结果表明,所提出的方法实现了SOTA性能,以准确估计HVS的冗余性。源代码将在https://github.com/jianjin008/hvs-sd-jnd上找到。
translated by 谷歌翻译
事实证明,多模式文档预训练的模型在各种视觉上富裕的文档理解(VRDU)任务中非常有效。尽管现有的文档预先培训模型在VRDU的标准基准上取得了出色的性能,但它们建模和利用文档上的视觉和语言之间的互动的方式阻碍了他们无法获得更好的概括能力和更高的准确性。在这项工作中,我们主要从监督信号的角度研究了VRDU视觉联合表示学习的问题。具体而言,提出了一种称为BI-VLDOC的预训练范式,其中设计了双向视觉监督策略和视觉性混合注意机制,以完全探索并利用这两种方式之间的相互作用,以学习更强的交叉交叉方式 - 具有更丰富语义的模式文档表示。 Bi-Vldoc受益于学习丰富的跨模式文档表示形式,显着提高了三个广泛使用文档的最新性能,理解基准,包括形式的理解(从85.14%到93.44%),收据信息提取(从96.01%到97.84%)和文档分类(从96.08%到97.12%)。在文档视觉质量检查中,BI-VLDOC与以前的单个模型方法相比,实现了最先进的性能。
translated by 谷歌翻译
在视觉检查形式中对纹理表面进行工业检查的最新进展使这种检查成为可能,以实现高效,灵活的制造系统。我们提出了一个无监督的特征内存重排网络(FMR-NET),以同时准确检测各种纹理缺陷。与主流方法一致,我们采用了背景重建的概念。但是,我们创新地利用人工合成缺陷来使模型识别异常,而传统智慧仅依赖于无缺陷的样本。首先,我们采用一个编码模块来获得纹理表面的多尺度特征。随后,提出了一个基于对比的基于学习的内存特征模块(CMFM)来获得判别性表示,并在潜在空间中构建一个正常的特征记忆库,可以用作补丁级别的缺陷和快速异常得分。接下来,提出了一个新型的全球特征重排模块(GFRM),以进一步抑制残余缺陷的重建。最后,一个解码模块利用还原的功能来重建正常的纹理背景。此外,为了提高检查性能,还利用了两阶段的训练策略进行准确的缺陷恢复改进,并且我们利用一种多模式检查方法来实现噪声刺激性缺陷定位。我们通过广泛的实验来验证我们的方法,并通过多级检测方法在协作边缘进行实用的部署 - 云云智能制造方案,表明FMR-NET具有先进的检查准确性,并显示出巨大的使用潜力在启用边缘计算的智能行业中。
translated by 谷歌翻译
最近的研究表明,诸如RNN和Transformers之类的深度学习模型为长期预测时间序列带来了显着的性能增长,因为它们有效地利用了历史信息。但是,我们发现,如何在神经网络中保存历史信息,同时避免过度适应历史上的噪音,这仍然有很大的改进空间。解决此问题可以更好地利用深度学习模型的功能。为此,我们设计了一个\ textbf {f}要求\ textbf {i} mpraved \ textbf {l} egendre \ textbf {m} emory模型,或{\ bf film}:它应用了legendre promotions topimate legendre provientions近似历史信息,近似历史信息,使用傅立叶投影来消除噪声,并添加低级近似值以加快计算。我们的实证研究表明,所提出的膜显着提高了由(\ textbf {20.3 \%},\ textbf {22.6 \%})的多变量和单变量长期预测中最新模型的准确性。我们还证明,这项工作中开发的表示模块可以用作一般插件,以提高其他深度学习模块的长期预测性能。代码可从https://github.com/tianzhou2011/film/获得。
translated by 谷歌翻译
膝关节骨关节炎(OA)是最常见的骨关节炎和伤残原因。软骨缺陷被认为是膝关节OA的主要表现,其通过磁共振成像(MRI)可见。因此,对膝关节软骨缺陷的早期检测和评估对于保护膝关节OA患者来说是重要的。通过这种方式,通过将卷积神经网络(CNNS)应用于膝关节MRI,已经在膝关节软骨缺陷评估中进行了许多尝试。然而,软骨的生理特性可能阻碍这种努力:软骨是薄的弯曲层,这意味着只有膝关节MRI中的一小部分体素可以有助于软骨缺陷评估;异构扫描方案进一步挑战CNN在临床实践中的可行性;基于CNN的膝关节软骨评估结果缺乏解释性。为了解决这些挑战,我们将软骨结构和外观模拟到膝关节MRI进入图表表示,该图表能够处理高度多样化的临床数据。然后,由软骨图表示指导,我们设计了一种具有自我关注机制的非欧几里德深度学习网络,提取本地和全局中的软骨功能,并通过可视化结果导出最终评估。我们的综合实验表明,该方法在膝关节软骨缺陷评估中产生了卓越的性能,以及其方便的可解释性3D可视化。
translated by 谷歌翻译
眼科医生已经使用眼底图像筛选和诊断眼病。然而,不同的设备和眼科医生对眼底图像的质量产生了大的变化。低质量(LQ)降级的眼底图像在临床筛查中容易导致不确定性,并且通常会增加误诊的风险。因此,真实的眼底图像恢复值得研究。不幸的是,到目前为止,这项任务尚未探索真正的临床基准。在本文中,我们研究了真正的临床眼底图像恢复问题。首先,我们建立一个临床数据集,真实的眼底(RF),包括120个低质量和高质量(HQ)图像对。然后,我们提出了一种新型的变压器的生成对抗网络(RFRMANER)来恢复临床眼底图像的实际降级。我们网络中的关键组件是基于窗口的自我关注块(WSAB),其捕获非本地自我相似性和远程依赖性。为了产生更明显的令人愉悦的结果,介绍了一种基于变压器的鉴别器。在我们的临床基准测试中的广泛实验表明,所提出的rformer显着优于最先进的(SOTA)方法。此外,诸如船舶分割和光盘/杯子检测之类的下游任务的实验表明我们所提出的rformer益处临床眼底图像分析和应用。将发布数据集,代码和模型。
translated by 谷歌翻译
对抗性扰动对于证明深度学习模型的鲁棒性至关重要。通用的对抗扰动(UAP)可以同时攻击多个图像,因此提供了更统一的威胁模型,从而避免了图像攻击算法。但是,当从不同的图像源绘制图像时(例如,具有不同的图像分辨率)时,现有的UAP生成器不发达。在图像来源的真实普遍性方面,我们将UAP生成的新颖看法是一个定制的几个实例,它利用双杆优化和学习优化的(L2O)技术(L2O)技术,以提高攻击成功率(ASR)(ASR) )。我们首先考虑流行模型不可知的元学习(MAML)框架,以将UAP生成器元素进行。但是,我们看到MAML框架并未直接提供跨图像源的通用攻击,从而要求我们将其与L2O的另一个元学习框架集成在一起。元学习UAP发电机(i)的最终方案的性能(ASR高50%)比预计梯度下降等基线的方案(II)比香草L2O和MAML框架的性能更好(37%)(当适用),(iii)能够同时处理不同受害者模型和图像数据源的UAP生成。
translated by 谷歌翻译